期刊
  出版年
  关键词
结果中检索 Open Search
Please wait a minute...
选择: 显示/隐藏图片
1. 面向二类区分能力的干扰熵特征选择方法
曾元鹏, 王开军, 林崧
计算机应用    2020, 40 (3): 626-630.   DOI: 10.11772/j.issn.1001-9081.2019071200
摘要411)      PDF (977KB)(362)    收藏
针对现有的特征选择方法对衡量不同类别数据重叠/分离能力的不足,提出了一种用于评价特征的二类区分能力的干扰熵方法(IET-CD)。对于包含两个类别(正类和负类)样本的特征,首先,计算正类数据范围内的负类样本的混合条件概率,以及负类样本归属于正类的概率;然后,由混合条件概率和归属概率计算混淆概率,再利用混淆概率计算正类干扰熵,同理,计算负类干扰熵;最后,将正、负类干扰熵之和作为该特征的二类干扰熵。干扰熵用于评价特征对二类样本的区分能力,该特征的干扰熵值小,表明该特征的二类区分能力强,反之则弱。在3个UCI数据集和1个模拟基因表达数据集上,每个方法挑选出5个最优特征,并对比了这些特征的二类区分能力,由此比较这些方法的性能。实验结果表明:所提方法与NEFS方法相比,二类区分能力相当或更好;与单索引近邻熵特征选择(SNEFS)方法、相关性最大冗余性最小特征选择(MRMR)算法、联合互信息(JMI)方法、Relief方法相比,绝大多数情况都是所提方法获胜。IET-CD方法能有效地选择二类区分能力更好的特征。
参考文献 | 相关文章 | 多维度评价
2. 基于双特征和松弛边界的随机森林进行异常点检测
胡淼, 王开军
计算机应用    2019, 39 (4): 956-962.   DOI: 10.11772/j.issn.1001-9081.2018091966
摘要423)      PDF (1029KB)(372)    收藏
针对现有基于随机森林的异常检测算法性能不高的问题,提出一种结合双特征和松弛边界的随机森林算法用于异常点检测。首先,在只使用正常类数据构建随机森林的分类决策树过程中,在二叉决策树的每个节点里记录两个特征的取值范围(每个特征对应一个值域),以此双特征值域作为异常点判断的依据。然后,在进行异常检测时,当某样本不满足决策树节点中的双特征值域时,该样本被标记为候选异常类;否则,该样本进入决策树的下层树节点继续作特征值域的比较,若无下层节点则被标记为候选正常类。最后,由随机森林算法中的判别机制决定该样本的类别。在5个UCI数据集上进行的异常点检测实验结果表明,所提方法比现有的异常检测随机森林算法性能更好,其综合性能与孤立森林(iForest)和一类支持向量机(OCSVM)方法相当或更好,且稳定于较高水平。
参考文献 | 相关文章 | 多维度评价
3. 回归模型中哑变量的相对重要性指数
李海超, 王开军, 胡淼, 陈黎飞
计算机应用    2017, 37 (11): 3048-3052.   DOI: 10.11772/j.issn.1001-9081.2017.11.3048
摘要851)      PDF (819KB)(626)    收藏
为在回归模型中描述定性属性,通常需要引入哑变量。对含哑变量的回归方程,提出描述不同哑变量在回归方程中不同重要程度的方法。该方法分解出含哑变量的回归方程中哑变量部分和非哑变量部分的回归平方和,计算这两部分在该回归方程中所起作用的占比,将该占比设计为各哑变量在回归方程中的相对重要程度指数。在近10万笔的Lending Club和Prosper网络借贷数据集上,所进行的挖掘借款用途对借款成功率、信用等级对借款利率的影响程度的实验结果表明,与传统回归方程仅提供哑变量前的系数却不能展现其重要程度相比,所提方法展现出不同哑变量的不同重要程度,为定量分析回归方程中定性自变量对因变量的影响程度提供了重要的手段。
参考文献 | 相关文章 | 多维度评价